Fouille de données : comment valoriser les ressources de données médicales dans les centres hospitaliers ? - 07/05/18
![](/templates/common/images/mail.png)
pages | 2 |
Iconographies | 0 |
Vidéos | 0 |
Autres | 0 |
Résumé |
Introduction |
Les établissements hospitaliers récupèrent et stockent beaucoup d’informations relatives à la prise en charge des patient(e)s. La majorité des données est conservée sous forme de texte dans les comptes rendus médicaux (CR) et donc difficilement exploitable. Une partie est recodée par le Département d’information médicale (DIM) dans des logiciels médico-administratifs. Pour participer ou promouvoir de nouveaux essais cliniques, il faut connaître le volume potentiel de patient(e)s répondant aux critères de sélection de ces études. Afin de répondre à ces demandes, nous avons mis au point un système informatisé de fouille textuelle des CR.
Méthodes |
Les outils utilisés étaient Clinicom® : système de gestion des informations médico-administratives dont ont été extraits 569 191 CR, et Python™ : langage de programmation objet permettant la manipulation et la recherche de données. Les questions posées étaient de type « Combien de patients ont présenté la pathologie [± caractéristique pathologique précise] pendant la période et ont reçu un traitement ». Les données du DIM permettaient de repérer les patients présentant la pathologie d’intérêt à l’aide des codes CIM-10 correspondants et/ou la période de prise en charge. Des mots clés ou expressions ont été recherchés dans les CR des patients repérés et un listing répondant aux critères était construit. Une fusion avec d’autres bases pouvait être réalisé afin d’affiner les résultats si nécessaire.
Résultats |
Quinze demandes ont été traitées entre 2016 et 2017. Sept réponses ont permis le lancement de projets de recherche et une a permis l’ouverture d’une étude industrielle (Tableau 1).
Conclusions |
Le script Python™ permet de rechercher et de trouver rapidement les cas d’intérêt parmi un grand volume de données, notamment pour les tumeurs rares. En effet, le script cherche des mots ou expressions, il est donc plus efficace pour retrouver des informations (pathologies précises, traitements hors centre) qui ne sont pas recodées. Le risque de faux positif est non négligeable du fait de la non-spécificité du script qui peut associer des types histologiques à d’autres localisations que celle d’intérêt. Il est prévu d’améliorer le robot en intégrant les expressions régulières et l’association d’expressions pour rapprocher les types des localisations. Une approche de « machine learning » à base de réseaux de neurones en collaboration est également prévue.
Le texte complet de cet article est disponible en PDF.Mots clés : Fouille de données, Python, Oncologie, Data management, Base de données clinico-biologiques
Plan
Vol 66 - N° S3
P. S132-S133 - mai 2018 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.
Déjà abonné à cette revue ?